O Golem de Praga
Statistical Rethinking — Richard McElreath (2ª ed.)
1. O Golem de Praga
No século XVI, a Casa de Habsburgo controlava grande parte da Europa Central, os Países Baixos e a Espanha, assim como as colônias espanholas nas Américas. A Casa foi talvez a primeira verdadeira potência mundial. O Sol brilhava sempre sobre alguma porção dela. Seu governante era também o Sacro Imperador Romano, e sua sede de poder era Praga. O Imperador do final do século XVI, Rodolfo II, amava a vida intelectual. Ele investiu nas artes, nas ciências (incluindo astrologia e alquimia) e na matemática, transformando Praga em um centro mundial de aprendizado e erudição. É apropriado, então, que nessa atmosfera erudita tenha surgido um dos primeiros robôs, o Golem de Praga.
Um golem (gólem) é um robô de argila do folclore judaico, construído a partir de pó, fogo e água. Ele é trazido à vida ao se inscrever emet, hebraico para “verdade”, em sua testa. Animado pela verdade, mas desprovido de livre-arbítrio, um golem sempre faz exatamente o que lhe é dito. Isso é uma sorte, pois o golem é incrivelmente poderoso, capaz de suportar e realizar mais do que seus criadores jamais poderiam. No entanto, sua obediência também traz perigo, pois instruções descuidadas ou eventos inesperados podem voltar o golem contra seus criadores. Sua abundância de poder é equiparada apenas por sua falta de sabedoria.
Em algumas versões da lenda do golem, o Rabino Judah Loew ben Bezalel buscou uma maneira de defender os judeus de Praga. Como em muitas partes da Europa Central do século XVI, os judeus de Praga eram perseguidos. Usando técnicas secretas da Cabala, o Rabino Judah conseguiu construir um golem, animá-lo com a “verdade” e ordená-lo a defender o povo judeu de Praga. Nem todos concordaram com a ação de Judah, temendo consequências não intencionais de brincar com o poder da vida. Por fim, Judah foi forçado a destruir o golem, pois sua combinação de poder extraordinário com falta de destreza acabou levando a mortes de inocentes. Apagando uma letra da inscrição emet para soletrar met, “morte”, o Rabino Judah descomissionou o robô.
1.1. Golems estatísticos
Cientistas também criam golems. Nossos golems raramente têm forma física, mas eles também são frequentemente feitos de argila, vivendo em silício como código de computador. Esses golems são modelos estatísticos. Mas esses golems têm efeitos reais no mundo, por meio das predições que fazem e das intuições que desafiam ou inspiram. Uma preocupação com a “verdade” vivifica esses modelos, mas assim como um golem ou um robô moderno, os modelos estatísticos não são verdadeiros nem falsos, nem profetas nem charlatães. Em vez disso, são construções projetadas para algum propósito. Essas construções são incrivelmente poderosas, executando diligentemente seus cálculos programados.
Figura 1.1. Exemplo de árvore de decisão, ou fluxograma, para selecionar um procedimento estatístico apropriado. Começando pelo topo, o usuário responde a uma série de perguntas sobre medição e intenção, chegando eventualmente ao nome de um procedimento. Muitas dessas árvores de decisão são possíveis.
Às vezes, sua lógica inflexível revela implicações previamente ocultas para seus projetistas. Essas implicações podem ser descobertas inestimáveis. Ou podem produzir comportamentos tolos e perigosos. Em vez de anjos idealizados da razão, os modelos estatísticos são robôs de argila poderosos, sem intenção própria, tropeçando de acordo com as instruções míopes que incorporam. Assim como o golem do Rabino Judah, os golems da ciência são sabiamente vistos com admiração e apreensão ao mesmo tempo. Nós absolutamente precisamos usá-los, mas fazê-lo sempre implica algum risco.
Existem muitos tipos de modelos estatísticos. Sempre que alguém emprega mesmo um procedimento estatístico simples, como um teste t clássico, essa pessoa está lançando mão de um pequeno golem que obedientemente executará um cálculo exato, realizando-o da mesma maneira (quase) todas as vezes, sem reclamar. Praticamente todos os ramos da ciência dependem dos sentidos dos golems estatísticos. Em muitos casos, já não é mais possível sequer medir fenômenos de interesse sem fazer uso de um modelo. Para medir a força da seleção natural, ou a velocidade de um neutrino, ou o número de espécies na Amazônia, precisamos usar modelos. O golem é uma prótese, fazendo as medições por nós, realizando cálculos impressionantes, encontrando padrões onde nenhum é óbvio.
No entanto, não há sabedoria no golem. Ele não discerne quando o contexto é inadequado para suas respostas. Ele apenas conhece seu próprio procedimento, nada mais. Ele simplesmente faz o que lhe é dito.
E assim permanece um triunfo da ciência estatística o fato de que hoje existem tantos golems diversos, cada um útil em um contexto particular. Visto dessa forma, a estatística não é nem matemática nem ciência, mas sim um ramo da engenharia. E, como na engenharia, um conjunto comum de princípios de projeto e restrições produz uma grande diversidade de aplicações especializadas.
Essa diversidade de aplicações ajuda a explicar por que os cursos introdutórios de estatística são tão frequentemente confusos para os iniciantes. Em vez de um único método para construir, refinar e criticar modelos estatísticos, os alunos recebem um zoológico de golems pré-construídos conhecidos como “testes”. Cada teste tem um propósito específico. Árvores de decisão, como a da Figura 1.1, são comuns. Ao responder uma série de perguntas sequenciais, os usuários escolhem o procedimento “correto” para suas circunstâncias de pesquisa.
Infelizmente, enquanto estatísticos experientes compreendem a unidade desses procedimentos, estudantes e pesquisadores raramente o fazem. Cursos avançados de estatística enfatizam princípios de engenharia, mas a maioria dos cientistas nunca chega tão longe. Ensinar estatística dessa forma é um pouco como ensinar engenharia de trás para frente, começando com a construção de pontes e terminando com a física básica. Assim, estudantes e muitos cientistas tendem a usar gráficos como a Figura 1.1 sem pensar muito em sua estrutura subjacente, sem muita consciência dos modelos que cada procedimento incorpora, e sem qualquer arcabouço para ajudá-los a fazer os compromissos inevitáveis exigidos pela pesquisa real. A culpa não é deles.
Para alguns, a caixa de ferramentas de golems pré-fabricados é tudo de que jamais precisarão. Contanto que permaneçam dentro de contextos bem testados, usando apenas alguns procedimentos diferentes em tarefas apropriadas, muita boa ciência pode ser realizada. Isso é semelhante a como encanadores podem fazer muito trabalho útil sem saber muito sobre dinâmica dos fluidos. Problemas sérios começam quando os acadêmicos passam a conduzir pesquisa inovadora, empurrando as fronteiras de suas especialidades. É como se obtivéssemos nossos engenheiros hidráulicos promovendo encanadores.
Por que os testes não são suficientes para a pesquisa? Os procedimentos clássicos da estatística introdutória tendem a ser inflexíveis e frágeis. Por inflexíveis, quero dizer que eles têm maneiras muito limitadas de se adaptar a contextos de pesquisa únicos. Por frágeis, quero dizer que eles falham de maneiras imprevisíveis quando aplicados a novos contextos. Isso importa, porque nas fronteiras da maioria das ciências, raramente fica claro qual procedimento é apropriado. Nenhum dos golems tradicionais foi avaliado em cenários de pesquisa inéditos, e por isso pode ser difícil escolher um e depois entender como ele se comporta. Um bom exemplo é o teste exato de Fisher, que se aplica (exatamente) a um contexto empírico extremamente restrito, mas é usado regularmente sempre que as contagens nas células são pequenas. Eu pessoalmente li centenas de usos do teste exato de Fisher em periódicos científicos, mas, fora o uso original de Fisher, nunca vi esse teste ser usado de maneira apropriada. Mesmo um procedimento como a regressão linear ordinária, que é bastante flexível de muitas maneiras, sendo capaz de codificar uma grande diversidade de hipóteses interessantes, é às vezes frágil. Por exemplo, se houver erro de medição substancial nas variáveis preditoras, o procedimento pode falhar de maneiras espetaculares. Mas, mais importante, é quase sempre possível fazer melhor do que a regressão linear ordinária, em grande parte por causa de um fenômeno conhecido como overfitting.
A questão não é que as ferramentas estatísticas sejam especializadas. É claro que são. A questão é que as ferramentas clássicas não são diversas o suficiente para lidar com muitas perguntas de pesquisa comuns. Toda área ativa da ciência lida com dificuldades únicas de medição e interpretação, e conversa com teorias idiossincráticas em um dialeto mal compreendido por outros cientistas de outras tribos. Especialistas em estatística de fora da disciplina podem ajudar, mas são limitados pela falta de fluência nas preocupações empíricas e teóricas da disciplina.
Além disso, nenhuma ferramenta estatística faz nada por conta própria para abordar o problema básico de inferir causas a partir da evidência. Os golems estatísticos não compreendem causa e efeito. Eles compreendem apenas associação. Sem nossa orientação e ceticismo, golems pré-fabricados podem não fazer nada de útil. Pior, eles podem destruir Praga.
O que os pesquisadores precisam é de alguma teoria unificada de engenharia de golems, um conjunto de princípios para projetar, construir e refinar procedimentos estatísticos de propósito específico. Todo ramo importante da filosofia estatística possui tal teoria unificada. Mas a teoria nunca é ensinada em cursos introdutórios — e frequentemente nem mesmo em cursos avançados. Portanto, há benefícios em repensar a inferência estatística como um conjunto de estratégias, em vez de um conjunto de ferramentas prontas.
1.2. Repensando a estatística
Muita coisa pode dar errado com a inferência estatística, e essa é uma razão pela qual os iniciantes ficam tão ansiosos a respeito dela. Quando o arcabouço consiste em escolher um teste pronto de um fluxograma, a ansiedade pode crescer à medida que a pessoa se preocupa em escolher o teste “correto”. Os estatísticos, por sua vez, podem sentir prazer em repreender os cientistas, tornando a batalha psicológica ainda pior.
Mas a ansiedade pode ser cultivada em sabedoria. Essa é a razão pela qual este capítulo insiste em trabalhar com as engrenagens computacionais de cada golem. Se você não entende como o golem processa a informação, então não pode interpretar a saída do golem. Isso exige conhecer o modelo estatístico em maior detalhe do que é costumeiro, e exige fazer os cálculos da maneira difícil, pelo menos até que você seja sábio o suficiente para usar as soluções de apertar-um-botão.
Existem também obstáculos conceituais, obstáculos relacionados a como os acadêmicos definem objetivos estatísticos e interpretam resultados estatísticos. Compreender qualquer golem individual não é suficiente nesses casos. Em vez disso, precisamos de alguma epistemologia estatística, uma apreciação de como os modelos estatísticos se relacionam com as hipóteses e os mecanismos naturais de interesse. Afinal, o que devemos fazer com essas pequenas máquinas computacionais?
O maior obstáculo que encontro entre estudantes e colegas é a crença tácita de que o objetivo apropriado da inferência estatística é testar hipóteses nulas. Esse é o objetivo correto, pensa-se, porque Karl Popper argumentou que a ciência avança falsificando hipóteses. Karl Popper (1902–1994) é possivelmente o filósofo da ciência mais influente, pelo menos entre os cientistas. Ele argumentou de maneira persuasiva que a ciência funciona melhor desenvolvendo hipóteses que são, em princípio, falsificáveis. Buscar evidências que possam envergonhar nossas ideias é um padrão normativo, e um ao qual a maioria dos acadêmicos — quer se descrevam como cientistas ou não — subscreve. Então talvez os procedimentos estatísticos devam falsificar hipóteses, se desejamos ser bons cientistas estatísticos.
Mas o exposto acima é um tipo de popperismo popular, uma filosofia informal da ciência comum entre cientistas, mas não entre filósofos da ciência. A ciência não é descrita pelo padrão de falsificação, e Popper reconheceu isso. De fato, a falsificação dedutiva é impossível em quase todos os contextos científicos. Nesta seção, reviso duas razões para essa impossibilidade.
- Hipóteses não são modelos. As relações entre hipóteses e diferentes tipos de modelos são complexas. Muitos modelos correspondem à mesma hipótese, e muitas hipóteses correspondem a um único modelo. Isso torna a falsificação estrita impossível.
- A medição importa. Mesmo quando pensamos que os dados falsificam um modelo, outro observador debaterá nossos métodos e medidas. Eles não confiam nos dados. Às vezes, eles estão certos.
Por ambas as razões, a falsificação dedutiva nunca funciona. O método científico não pode ser reduzido a um procedimento estatístico, e portanto nossos métodos estatísticos não devem fingir que pode. A evidência estatística é parte da bagunça que é a ciência, com todo o seu combate, egoísmo e coerção mútua. Se você acredita, como eu, que a ciência frequentemente funciona, então aprender que ela não funciona pela via da falsificação não deveria mudar sua opinião. Mas pode ajudá-lo a fazer ciência melhor, porque abrirá seus olhos para muitas funções legitimamente úteis dos golems estatísticos.
Repensando: O NHST é falsificacionista? O teste de significância da hipótese nula, NHST (Null Hypothesis Significance Testing), é frequentemente identificado com a filosofia de ciência falsificacionista, ou popperiana. No entanto, geralmente o NHST é usado para falsificar uma hipótese nula, não a hipótese de pesquisa propriamente dita. Portanto, a falsificação está sendo feita em algo diferente do modelo explicativo. Isso parece o inverso da filosofia de Karl Popper.
1.2.1. Hipóteses não são modelos
Quando tentamos falsificar uma hipótese, precisamos trabalhar com algum tipo de modelo. Mesmo quando a tentativa não é explicitamente estatística, sempre há um modelo tácito de medição, de evidência, que operacionaliza a hipótese. Todos os modelos são falsos, então o que significa falsificar um modelo? Uma consequência da necessidade de trabalhar com modelos é que não é mais possível deduzir que uma hipótese é falsa apenas porque rejeitamos um modelo derivado dela.
Vamos explorar essa consequência no contexto de um exemplo da biologia de populações (Figura 1.2). A partir da década de 1960, biólogos evolucionistas tornaram-se interessados na proposta de que a maioria das mudanças evolutivas na frequência gênica é causada não pela seleção natural, mas sim por mutação e deriva. Ninguém realmente duvidava que a seleção natural fosse responsável pelo design funcional. Este era um debate sobre sequências genéticas. Assim começaram várias décadas produtivas de combate acadêmico sobre modelos “neutros” de evolução molecular. Esse combate é mais fortemente associado a Motoo Kimura (1924–1994), que foi talvez o mais forte defensor dos modelos neutros. Mas muitos outros geneticistas populacionais participaram. Com o passar do tempo, disciplinas relacionadas, como ecologia de comunidades e antropologia, experimentaram (ou estão atualmente experimentando) suas próprias versões do debate da neutralidade.
Vamos usar o esquema da Figura 1.2 para explorar conexões entre hipóteses motivadoras e diferentes modelos, no contexto do debate sobre evolução neutra. À esquerda, há duas hipóteses informais estereotipadas: Ou a evolução é “neutra” (\(H_0\)) ou a seleção natural importa de alguma forma (\(H_1\)). Essas hipóteses têm fronteiras vagas, porque começam como conjecturas verbais, não como modelos precisos. Existem milhares de processos detalhados possíveis que podem ser descritos como “neutros”, dependendo das escolhas sobre, por exemplo, estrutura populacional, número de sítios, número de alelos em cada sítio, taxas de mutação e recombinação.
Uma vez que tenhamos feito essas escolhas, temos a coluna do meio na Figura 1.2, modelos de processo detalhados de evolução. \(P_0^A\) e \(P_0^B\) diferem em que um assume que o tamanho e a estrutura da população foram constantes por tempo suficiente para que a distribuição dos alelos atinja um estado estacionário. O outro imagina, em vez disso, que o tamanho da população flutua ao longo do tempo, o que pode ser verdadeiro mesmo quando não há diferença seletiva entre os alelos. A hipótese “a seleção importa”, \(H_1\), corresponde igualmente a muitos modelos de processo diferentes. Mostrei dois grandes protagonistas: um modelo no qual a seleção sempre favorece certos alelos e outro no qual a seleção flutua ao longo do tempo, favorecendo alelos diferentes.
Uma característica importante desses modelos de processo é que eles expressam estrutura causal. Diferentes modelos de processo formalizam diferentes relações de causa e efeito. Quer sejam analisados matematicamente ou por simulação, a direção do tempo em um modelo significa que certas coisas causam outras, mas não o inverso. Você pode usar tais modelos para realizar experimentos e sondar suas implicações causais. Às vezes, essas sondagens revelam, antes mesmo de recorrermos à inferência estatística, que o modelo não consegue explicar um fenômeno de interesse.
Figura 1.2. Relações entre hipóteses (esquerda), modelos de processo detalhados (centro) e modelos estatísticos (direita), ilustrados pelo exemplo de modelos “neutros” de evolução. As hipóteses (H) são tipicamente vagas, e por isso correspondem a mais de um modelo de processo (P). Avaliações estatísticas de hipóteses raramente abordam modelos de processo diretamente. Em vez disso, elas dependem de modelos estatísticos (M), todos os quais refletem apenas alguns aspectos dos modelos de processo. Como resultado, as relações são múltiplas em ambas as direções: Hipóteses não implicam modelos únicos, e modelos não implicam hipóteses únicas. Esse fato complica enormemente a inferência estatística.
Para desafiar modelos de processo com dados, eles precisam ser transformados em modelos estatísticos. Infelizmente, os modelos estatísticos não incorporam relações causais específicas. Um modelo estatístico expressa associações entre variáveis. Como resultado, muitos modelos de processo diferentes podem ser consistentes com qualquer modelo estatístico individual.
Como obtemos um modelo estatístico a partir de um modelo causal? Uma maneira é derivar a distribuição de frequência esperada de alguma quantidade — uma “estatística” — do modelo causal. Por exemplo, uma estatística comum nesse contexto é a distribuição de frequência (histograma) da frequência de diferentes variantes genéticas (alelos). Alguns alelos são raros, aparecendo em apenas poucos indivíduos. Outros são muito comuns, aparecendo em muitos indivíduos na população. Um resultado famoso em genética de populações é que um modelo como \(P_0^A\) produz uma distribuição de lei de potência das frequências alélicas. E assim esse fato produz um modelo estatístico, \(M_{II}\), que prediz uma lei de potência nos dados. Em contraste, o modelo de processo de seleção constante \(P_1^A\) prediz algo bastante diferente, \(M_{III}\).
Infelizmente, outros modelos de seleção (\(P_1^B\)) implicam o mesmo modelo estatístico, \(M_{II}\), que o modelo neutro. Eles também produzem leis de potência. Assim, chegamos à lição desconfortável:
- Qualquer modelo estatístico (M) dado pode corresponder a mais de um modelo de processo (P).
- Qualquer hipótese (H) dada pode corresponder a mais de um modelo de processo (P).
- Qualquer modelo estatístico (M) dado pode corresponder a mais de uma hipótese (H).
Agora veja o que acontece quando comparamos os modelos estatísticos com os dados. A abordagem clássica é tomar o modelo “neutro” como hipótese nula. Se os dados não forem suficientemente semelhantes à expectativa sob a hipótese nula, então dizemos que “rejeitamos” a hipótese nula. Suponha que seguimos a história desse assunto e tomamos \(P_0^A\) como nossa hipótese nula. Isso implica dados correspondentes a \(M_{II}\). Mas como o mesmo modelo estatístico corresponde a um modelo de seleção \(P_1^B\), não fica nada claro o que devemos concluir ao rejeitar ou aceitar a hipótese nula. O modelo nulo não é único a nenhum modelo de processo nem hipótese. Se rejeitarmos a hipótese nula, não podemos realmente concluir que a seleção importa, porque existem outros modelos neutros que predizem distribuições diferentes de alelos. E se falharmos em rejeitar a hipótese nula, não podemos realmente concluir que a evolução é neutra, porque alguns modelos de seleção esperam a mesma distribuição de frequência.
Isso é um enorme incômodo. Uma vez que temos o diagrama na Figura 1.2, é fácil ver o problema. Mas poucos de nós têm essa sorte. Enquanto a genética de populações reconheceu essa questão, acadêmicos de outras disciplinas continuam a testar distribuições de frequência contra expectativas de lei de potência, argumentando até que existe apenas um modelo neutro. Mesmo que houvesse apenas um modelo neutro, existem tantos modelos não-neutros que imitam as predições da neutralidade, que nem rejeitar nem falhar em rejeitar o modelo nulo carrega muito poder inferencial.
Então, o que pode ser feito? Bem, se você tem múltiplos modelos de processo, muito pode ser feito. Se descobrimos que todos os modelos de processo de interesse fazem predições muito semelhantes, então sabemos que devemos buscar uma descrição diferente da evidência, uma descrição sob a qual os processos pareçam diferentes. Por exemplo, enquanto \(P_0^A\) e \(P_1^B\) fazem predições de lei de potência muito semelhantes para a distribuição de frequência dos alelos, eles fazem predições muito dissimilares para a distribuição de mudanças na frequência alélica ao longo do tempo. Compare explicitamente as predições de mais de um modelo, e você pode se poupar de alguns tipos comuns de tolice.
Os modelos estatísticos podem ser confundidos de outras maneiras também, como a confusão causada por variáveis não observadas e viés de amostragem. Os modelos de processo nos permitem projetar modelos estatísticos com esses problemas em mente. O modelo estatístico sozinho não é suficiente.
Repensando: Entropia e identificação de modelos. Uma razão pela qual os modelos estatísticos rotineiramente correspondem a muitos modelos de processo detalhados diferentes é que eles dependem de distribuições como a normal, a binomial, a de Poisson e outras. Essas distribuições são membros de uma família, a família exponencial. A natureza ama os membros dessa família. A natureza os ama porque a natureza ama a entropia, e todas as distribuições da família exponencial são distribuições de entropia máxima. Tirar a personificação natural dessa explicação está além do escopo deste capítulo. A implicação prática é que não se pode inferir mais sobre o processo evolutivo a partir de uma lei de potência do que se pode inferir sobre o processo de desenvolvimento a partir do fato de que a altura é normalmente distribuída. Esse fato deveria nos tornar humildes em relação ao que os modelos de regressão típicos — a carne deste material — podem nos ensinar sobre processos mecanísticos. Por outro lado, a natureza de entropia máxima dessas distribuições significa que podemos usá-las para fazer trabalho estatístico útil, mesmo quando não conseguimos identificar o processo subjacente. Não apenas não podemos identificá-lo, como também não precisamos.
1.2.2. A medição importa
A lógica da falsificação é muito simples. Temos uma hipótese H, e mostramos que ela implica alguma observação D. Então procuramos D. Se não a encontramos, devemos concluir que H é falsa. Os lógicos chamam esse tipo de raciocínio de modus tollens, que é uma abreviação em latim para “o método da destruição”. Em contraste, encontrar D não nos diz nada de certo sobre H, porque outras hipóteses também podem predizer D.
Uma fábula científica convincente que emprega o modus tollens diz respeito à cor dos cisnes. Antes de descobrir a Austrália, todos os cisnes que qualquer europeu já havia visto tinham penas brancas. Isso levou à crença de que todos os cisnes são brancos. Vamos chamar isso de hipótese formal:
\(H_0\): Todos os cisnes são brancos.
Quando os europeus chegaram à Austrália, no entanto, encontraram cisnes com penas negras. Essa evidência pareceu provar instantaneamente que \(H_0\) era falsa. De fato, nem todos os cisnes são brancos. Alguns são certamente negros, de acordo com todos os observadores. O insight crucial aqui é que, antes de viajar à Austrália, nenhuma quantidade de observações de cisnes brancos poderia provar que \(H_0\) é verdadeira. No entanto, bastou uma única observação de um cisne negro para prová-la falsa.
Essa é uma história sedutora. Se podemos acreditar que hipóteses científicas importantes podem ser formuladas nessa forma, então temos um método poderoso para melhorar a precisão de nossas teorias: procurar evidências que desconfirmem nossas hipóteses. Sempre que encontramos um cisne negro, \(H_0\) deve ser falsa. Progresso!
Buscar evidências desconfirmadoras é importante, mas isso não pode ser tão poderoso quanto a história do cisne faz parecer. Além dos problemas de correspondência entre hipóteses e modelos, discutidos na seção anterior, a maioria dos problemas que os cientistas enfrentam não é tão logicamente discreta. Em vez disso, mais frequentemente enfrentamos dois problemas simultâneos que tornam a fábula do cisne não-representativa. Primeiro, as observações são propensas a erros, especialmente nas fronteiras do conhecimento científico. Segundo, a maioria das hipóteses é quantitativa, dizendo respeito a graus de existência, em vez de discreta, dizendo respeito à presença ou ausência total. Vamos considerar brevemente cada um desses problemas.
1.2.2.1. Erro de observação. Todos os observadores concordarão, na maioria das condições, que um cisne é preto ou branco. Há poucos tons intermediários, e os olhos da maioria dos observadores funcionam de maneira suficientemente similar para que haja pouco ou nenhum desacordo sobre quais cisnes são brancos e quais são pretos. Mas esse tipo de exemplo raramente é encontrado na ciência, pelo menos em campos maduros. Em vez disso, rotineiramente confrontamos contextos nos quais não temos certeza se detectamos um resultado desconfirmador. Nas fronteiras do conhecimento científico, a capacidade de medir um fenômeno hipotético está frequentemente em questão tanto quanto o próprio fenômeno.
Aqui estão dois exemplos.
Em 2005, uma equipe de ornitólogos de Cornell afirmou ter evidências de um indivíduo de Pica-pau-bico-de-marfim (Campephilus principalis), uma espécie considerada extinta. A hipótese implícita aqui é:
\(H_0\): O Pica-pau-bico-de-marfim está extinto.
Bastaria uma única observação para falsificar essa hipótese. No entanto, muitos duvidaram da evidência. Apesar de extensos esforços de busca e uma recompensa em dinheiro de US$ 50.000 por informações que levassem a um espécime vivo, nenhuma evidência que satisfizesse todas as partes surgiu até o momento (até 2015). Mesmo que boas evidências físicas eventualmente surjam, esse episódio deveria servir como contraponto à história do cisne. Encontrar casos desconfirmadores é complicado pelas dificuldades de observação. Cisnes negros nem sempre são realmente cisnes negros, e às vezes cisnes brancos são na verdade cisnes negros. Existem confirmações equivocadas (falsos positivos) e desconfirmações equivocadas (falsos negativos). Contra esse pano de fundo de dificuldades de medição, cientistas que já acreditam que o Pica-pau-bico-de-marfim está extinto sempre serão desconfiados de uma suposta falsificação. Aqueles que acreditam que ele ainda está vivo tenderão a contar a evidência mais vaga como falsificação.
Outro exemplo, este da física, foca na detecção de neutrinos mais rápidos que a luz (FTL). Em setembro de 2011, uma equipe grande e respeitada de físicos anunciou a detecção de neutrinos — partículas subatômicas pequenas e neutras capazes de passar fácil e inofensivamente pela maioria da matéria — que chegaram da Suíça à Itália em um tempo ligeiramente mais rápido do que a velocidade da luz. Segundo Einstein, neutrinos não podem viajar mais rápido que a velocidade da luz. Então isso parece ser uma falsificação da relatividade especial. Se assim fosse, viraria a física de cabeça para baixo.
A reação dominante da comunidade física não foi “Einstein estava errado!”, mas sim “Como a equipe errou a medição?” A equipe que fez a medição teve a mesma reação, e pediu a outros que verificassem seus cálculos e tentassem replicar o resultado.
O que poderia dar errado na medição? Você poderia pensar que medir a velocidade é uma simples questão de dividir a distância pelo tempo. É, na escala e energia em que vivemos. Mas com uma partícula fundamental como um neutrino, se você mede quando ele inicia sua jornada, você interrompe a jornada. A partícula é consumida pela medição. Portanto, abordagens mais sutis são necessárias. A diferença detectada em relação à velocidade da luz, além disso, é bastante pequena, e portanto até a latência do tempo que leva para um sinal viajar de um detector a uma sala de controle pode ser ordens de magnitude maior. E como a “medição”, neste caso, é realmente uma estimativa de um modelo estatístico, todas as suposições do modelo são agora suspeitas. Em 2013, a comunidade física era unânime em que o resultado do neutrino FTL era erro de medição. Eles encontraram o erro técnico, que envolvia um cabo mal conectado. Além disso, neutrinos cronometrados a partir de eventos de supernova são consistentes com Einstein, e essas distâncias são muito maiores e portanto revelariam diferenças de velocidade muito melhor.
Em ambos os dramas, do pica-pau e do neutrino, o dilema central é se a falsificação é real ou espúria. A medição é complicada em ambos os casos, mas de maneiras bastante diferentes, tornando tanto a detecção verdadeira quanto a detecção falsa plausíveis. O próprio Popper estava ciente dessa limitação inerente à medição, e essa pode ser uma razão pela qual o próprio Popper via a ciência como sendo mais ampla que a falsificação. Mas a natureza probabilística da evidência raramente aparece quando os cientistas praticantes discutem a filosofia e a prática da falsificação. Minha leitura da história da ciência é que esses tipos de problemas de medição são a norma, não a exceção.
1.2.2.2. Hipóteses contínuas. Outro problema para a história do cisne é que a maioria das hipóteses científicas interessantes não é do tipo “todos os cisnes são brancos”, mas sim do tipo:
\(H_0\): 80% dos cisnes são brancos.
Ou talvez:
\(H_0\): Cisnes negros são raros.
Agora, o que devemos concluir, após observar um cisne negro? A hipótese nula não diz que cisnes negros não existem, mas sim que eles têm alguma frequência. A tarefa aqui não é refutar ou provar uma hipótese desse tipo, mas sim estimar e explicar a distribuição da coloração dos cisnes com a maior precisão possível. Mesmo quando não há erro de medição de qualquer tipo, esse problema nos impedirá de aplicar a história do modus tollens do cisne à nossa ciência.
Você poderia objetar que a hipótese acima simplesmente não é uma boa hipótese científica, porque não é fácil de refutar. Mas se for esse o caso, então a maioria das questões importantes sobre o mundo não são boas hipóteses científicas. Nesse caso, devemos concluir que a definição de “boa hipótese” não está nos fazendo muito bem. Agora, quase todos concordam que é uma boa prática construir experimentos e observações que possam diferenciar hipóteses concorrentes. Mas em muitos casos, a comparação deve ser probabilística, uma questão de grau, não de tipo.
1.2.3. A falsificação é consensual
A comunidade científica de fato passa a considerar algumas hipóteses como falsas. A teoria calórica do calor e o modelo geocêntrico do universo já não são ensinados em cursos de ciências, a menos que seja para ensinar como foram falsificados. E a evidência frequentemente — mas nem sempre — tem algo a ver com tal falsificação.
Mas a falsificação é sempre consensual, não lógica. À luz dos problemas reais de erro de medição e da natureza contínua dos fenômenos naturais, as comunidades científicas argumentam em direção a um consenso sobre o significado das evidências. Esses argumentos podem ser confusos. Depois do fato, alguns livros-texto distorcem a história de modo que pareça falsificação lógica. Tal revisionismo histórico pode prejudicar a todos. Pode prejudicar os cientistas, ao tornar impossível que seu próprio trabalho esteja à altura das lendas que os precedem. Pode tornar a ciência um alvo fácil, ao promover um modelo de epistemologia científica facilmente atacável. E pode prejudicar o público, ao exagerar a definitividade do conhecimento científico.
1.3. Ferramentas para engenharia de golems
Então, se tentar imitar a falsificação não é uma abordagem geralmente útil para métodos estatísticos, o que devemos fazer? Devemos modelar. Modelos podem ser transformados em procedimentos de teste — todos os testes estatísticos são também modelos — mas também podem ser usados para projetar, prever e argumentar. Fazer pesquisa se beneficia da capacidade de produzir e manipular modelos, tanto porque os problemas científicos são mais gerais do que “testar” quanto porque os golems prontos que você talvez tenha encontrado em cursos introdutórios de estatística são mal adaptados a muitos contextos de pesquisa. Você pode nem saber qual modelo estatístico usar, a menos que tenha um modelo generativo adicionalmente.
Se você quer reduzir suas chances de destruir Praga, então algum conhecimento de engenharia de golems é necessário. Não se engane: você acabará destruindo Praga eventualmente. Mas se for um bom engenheiro de golems, pelo menos notará a destruição. E como saberá muito sobre como seu golem funciona, terá boas chances de descobrir o que deu errado. Então seu próximo golem não será tão ruim. Sem o treinamento em engenharia, você estará sempre à mercê de outra pessoa.
Queremos usar nossos modelos para vários propósitos distintos: projetar investigações, extrair informações dos dados e fazer predições. Neste capítulo, apresentamos ferramentas que ajudam com cada propósito. Essas ferramentas são:
- Análise bayesiana de dados
- Comparação de modelos
- Modelos multinível
- Modelos causais gráficos
Essas ferramentas são profundamente relacionadas entre si, então faz sentido ensiná-las juntas. A compreensão dessas ferramentas vem, como sempre, somente com a implementação — você não pode compreender a engenharia de golems até praticá-la. E assim este material foca principalmente em código, em como fazer as coisas. Mas no restante deste capítulo, forneço introduções a essas ferramentas.
1.3.1. Análise bayesiana de dados
Supondo que você tenha alguns dados, como deveria usá-los para aprender sobre o mundo? Não há uma resposta unicamente correta para essa pergunta. Muitas abordagens, tanto formais quanto heurísticas, podem ser eficazes. Mas uma das respostas mais eficazes e gerais é usar a análise bayesiana de dados. A análise bayesiana de dados toma uma questão na forma de um modelo e usa a lógica para produzir uma resposta na forma de distribuições de probabilidade.
Em termos modestos, a análise bayesiana de dados é nada mais do que contar o número de maneiras como os dados poderiam acontecer, de acordo com nossas suposições. Coisas que podem acontecer de mais maneiras são mais plausíveis. A teoria da probabilidade é relevante porque a probabilidade é simplesmente um cálculo para contar. Isso nos permite usar a teoria da probabilidade como uma forma geral de representar plausibilidade, seja em referência a eventos contáveis no mundo ou a construtos teóricos como parâmetros. O restante segue logicamente. Uma vez que definimos o modelo estatístico, a análise bayesiana de dados impõe uma maneira puramente lógica de processar os dados para produzir inferência.
Por agora, será útil ter outra abordagem para comparar. A probabilidade bayesiana é uma abordagem muito geral para a probabilidade, e inclui como caso especial outra abordagem importante, a abordagem frequentista. A abordagem frequentista requer que todas as probabilidades sejam definidas pela conexão com as frequências de eventos em amostras muito grandes. Isso leva a incerteza frequentista a ser baseada em reamostragem imaginária dos dados — se repetíssemos a medição muitas e muitas vezes, acabaríamos coletando uma lista de valores que terá algum padrão. Isso significa também que parâmetros e modelos não podem ter distribuições de probabilidade, apenas medições podem. A distribuição dessas medições é chamada de distribuição amostral. Essa reamostragem nunca é feita, e em geral nem faz sentido — é absurdo considerar a amostragem repetida da diversificação de pássaros canoros nos Andes. Como Sir Ronald Fisher, um dos mais importantes estatísticos frequentistas do século XX, colocou:
[…] as únicas populações que podem ser referenciadas em um teste de significância não têm realidade objetiva, sendo exclusivamente produto da imaginação do estatístico […]
Mas em muitos contextos, como experimentos controlados em estufas, é um dispositivo útil para descrever a incerteza. Qualquer que seja o contexto, é apenas parte do modelo, uma suposição sobre como os dados se pareceriam sob reamostragem. É tão fantasiosa quanto a jogada bayesiana de usar a probabilidade para descrever todos os tipos de incerteza, seja empírica ou epistemológica.
Mas essas diferentes atitudes em relação à probabilidade impõem diferentes compromissos. Considere este exemplo simples em que a diferença entre probabilidade bayesiana e frequentista importa. No ano de 1610, Galileu apontou um telescópio primitivo para o céu noturno e se tornou o primeiro humano a ver os anéis de Saturno. Bem, ele provavelmente viu um borrão, com alguns borrões menores ligados a ele (Figura 1.3). Como o telescópio era primitivo, ele não conseguia realmente focar a imagem muito bem. Saturno sempre aparecia borrado. Esse é um problema estatístico, de certa forma. Há incerteza sobre a forma do planeta, mas note que nenhuma da incerteza é resultado de variação em medições repetidas. Poderíamos olhar pelo telescópio mil vezes, e ele sempre dará a mesma imagem borrada (para qualquer posição dada da Terra e de Saturno). Portanto, a distribuição amostral de qualquer medição é constante, porque a medição é determinística — não há nada de “aleatório” nela. A inferência estatística frequentista tem muita dificuldade em começar aqui. Em contraste, a inferência bayesiana prossegue normalmente, porque o “ruído” determinístico ainda pode ser modelado usando probabilidade, desde que não identifiquemos probabilidade com frequência. Como resultado, o campo de reconstrução e processamento de imagens é dominado por algoritmos bayesianos.
Em procedimentos estatísticos mais rotineiros, como a regressão linear, essa diferença nos conceitos de probabilidade tem menos efeito. No entanto, é importante perceber que mesmo quando um procedimento bayesiano e um procedimento frequentista dão exatamente a mesma resposta, nossos golems bayesianos não estão justificando suas inferências com reamostragem imaginária repetida. Mais geralmente, os golems bayesianos tratam a “aleatoriedade” como uma propriedade da informação, não do mundo. Nada no mundo real — excetuando interpretações controversas da física quântica — é realmente aleatório. Presumivelmente, se tivéssemos mais informação, poderíamos predizer tudo exatamente. Simplesmente usamos a aleatoriedade para descrever nossa incerteza diante do conhecimento incompleto. Da perspectiva do nosso golem, o lançamento da moeda é “aleatório”, mas na verdade é o golem que é aleatório, não a moeda.
Figura 1.3. Saturno, muito parecido com o que Galileu deve ter visto. A verdadeira forma é incerta, mas não por causa de qualquer variação amostral. A teoria da probabilidade ainda pode ajudar.
Note que a descrição precedente não invoca as “crenças” ou opiniões subjetivas de ninguém. A análise bayesiana de dados é apenas um procedimento lógico para processar informação. Há uma tradição de usar esse procedimento como uma descrição normativa de crença racional, uma tradição chamada Bayesianismo. Mas este capítulo não descreve nem defende isso. Na verdade, o argumento aqui é que nenhuma abordagem estatística, bayesiana ou não, é por si só suficiente.
Repensando: A probabilidade não é unitária. Será desconfortável para alguns leitores sugerir que há mais de uma maneira de definir “probabilidade”. Conceitos matemáticos não são unicamente corretos? Não são. Uma vez que se adota algum conjunto de premissas, ou axiomas, tudo segue logicamente em sistemas matemáticos. Mas os axiomas estão abertos ao debate e à interpretação. Portanto, não há apenas probabilidade “bayesiana” e “frequentista”, mas há diferentes versões de probabilidade bayesiana também, apoiando-se em diferentes argumentos para justificar a abordagem. Em textos bayesianos mais avançados, você encontrará nomes como Bruno de Finetti, Richard T. Cox e Leonard “Jimmie” Savage. Cada uma dessas figuras está associada a uma concepção um tanto diferente da probabilidade bayesiana. Há outros. Este material segue principalmente a interpretação “lógica” de Cox (ou Laplace-Jeffreys-Cox-Jaynes).
Como diferentes interpretações da teoria da probabilidade podem prosperar? Por si mesmas, as entidades matemáticas não necessariamente “significam” algo, no sentido de implicação no mundo real. O que significa tomar a raiz quadrada de um número negativo? O que significa tomar um limite quando algo se aproxima do infinito? Estes são conceitos essenciais e rotineiros, mas seus significados dependem do contexto e do analista, das crenças sobre quão bem a abstração representa a realidade. A matemática não acessa o mundo real diretamente. Portanto, responder a tais perguntas permanece um projeto controverso e divertido, em todos os ramos da matemática aplicada. Assim, embora todos subscrevam os mesmos axiomas de probabilidade, nem todos concordam em todos os contextos sobre como interpretar a probabilidade.
Antes de prosseguir para descrever as próximas duas ferramentas, vale enfatizar uma vantagem da análise bayesiana de dados, pelo menos quando os acadêmicos estão aprendendo modelagem estatística. Este livro inteiro poderia ser reescrito para remover qualquer menção a “bayesiano”. Em alguns lugares, ficaria mais fácil. Em outros, ficaria muito mais difícil. Mas tendo ensinado estatística aplicada das duas maneiras, descobri que o arcabouço bayesiano apresenta uma vantagem pedagógica distinta: muitas pessoas o acham mais intuitivo. Talvez a melhor evidência para isso seja que muitos cientistas interpretam resultados não-bayesianos em termos bayesianos, por exemplo interpretando valores-p ordinários como probabilidades posteriori bayesianas e intervalos de confiança não-bayesianos como bayesianos (conceitos que serão abordados ao longo do curso). Até instrutores de estatística cometem esses erros. Nesse sentido, então, os modelos bayesianos levam a interpretações mais intuitivas, aquelas que os cientistas tendem a projetar nos resultados estatísticos. O padrão oposto de erro — interpretar uma probabilidade a posteriori como um valor-p — parece acontecer apenas raramente.
Nada disso garante que análises bayesianas serão mais corretas do que análises não-bayesianas. Significa apenas que as intuições do cientista estarão menos comumente em desacordo com a lógica real do arcabouço. Isso simplifica alguns dos aspectos do ensino de modelagem estatística.
Repensando: Um pouco de história. A inferência estatística bayesiana é muito mais antiga que as ferramentas típicas da estatística introdutória, a maioria das quais foi desenvolvida no início do século XX. Versões da abordagem bayesiana foram aplicadas ao trabalho científico no final dos anos 1700 e repetidamente no século XIX. Mas após a Primeira Guerra Mundial, estatísticos anti-bayesianos, como Sir Ronald Fisher, conseguiram marginalizar a abordagem. Tudo o que Fisher disse sobre a análise bayesiana (então chamada de probabilidade inversa) em seu influente manual de 1925 foi:
[…] a teoria da probabilidade inversa é fundada sobre um erro, e deve ser inteiramente rejeitada.
A análise bayesiana de dados tornou-se cada vez mais aceita dentro da estatística durante a segunda metade do século XX, porque se provou não estar fundada sobre um erro. Toda filosofia à parte, ela funcionava. A partir da década de 1990, novas abordagens computacionais levaram a um rápido crescimento na aplicação de métodos bayesianos. Os métodos bayesianos permanecem computacionalmente caros, no entanto. E assim, à medida que os conjuntos de dados aumentaram em escala — milhões de linhas são comuns em análise genômica, por exemplo — alternativas ou aproximações à inferência bayesiana permanecem importantes, e provavelmente sempre serão.
1.3.2. Comparação de modelos e predição
A análise bayesiana de dados fornece uma maneira para os modelos aprenderem com os dados. Mas quando há mais de um modelo plausível — e na maioria dos campos maduros deveria haver — como devemos escolher entre eles? Uma resposta é preferir modelos que fazem boas predições. Essa resposta cria muitas perguntas novas, já que saber qual modelo fará as melhores predições parece exigir conhecer o futuro. Examinaremos profundamente duas ferramentas relacionadas, nenhuma das quais conhece o futuro: validação cruzada e critérios de informação. Essas ferramentas visam nos permitir comparar modelos com base na acurácia preditiva esperada.
Comparar modelos pela acurácia preditiva pode ser útil por si só. E será ainda mais útil porque leva à descoberta de um fato surpreendente: Modelos complexos frequentemente fazem predições piores do que modelos mais simples. O paradoxo primário da predição é o overfitting: Ajustar é fácil; predizer é difícil. Dados futuros não serão exatamente como dados passados, e portanto qualquer modelo que não esteja ciente desse fato tende a fazer predições piores do que poderia. E modelos mais complexos tendem a ter mais overfitting do que os simples — quanto mais esperto o golem, mais tolas suas predições. Portanto, se desejamos fazer boas predições, não podemos julgar nossos modelos simplesmente por quão bem eles se ajustam aos nossos dados.
A validação cruzada e os critérios de informação nos ajudam de três maneiras relacionadas. Primeiro, eles fornecem expectativas úteis de acurácia preditiva, em vez de meramente ajuste à amostra. Portanto, comparam modelos onde importa. Segundo, eles nos dão uma estimativa da tendência de um modelo a sofrer overfitting nos dados. Isso nos ajudará a entender como modelos e dados interagem, o que por sua vez nos ajuda a projetar modelos melhores. Retomaremos esse ponto na próxima seção. Terceiro, a validação cruzada e os critérios de informação podem nos ajudar a identificar observações altamente influentes.
A análise bayesiana de dados tem sido trabalhada por séculos. Os critérios de informação são comparativamente muito jovens e o campo está evoluindo rapidamente. Muitos estatísticos nunca usaram critérios de informação em um problema aplicado, e não há consenso sobre quais métricas são melhores e como melhor usá-las. Ainda assim, os critérios de informação já são de uso frequente nas ciências, aparecendo em publicações proeminentes e figurando em debates proeminentes. Seu poder é frequentemente exagerado, e teremos cuidado em notar o que eles não podem fazer, assim como o que podem.
Repensando: O Neandertal em você. Mesmo modelos simples precisam de alternativas. Em 2010, um rascunho do genoma de um Neandertal demonstrou mais sequências de DNA em comum com humanos contemporâneos não-africanos do que com africanos. Essa descoberta é consistente com cruzamento entre Neandertais e humanos modernos, à medida que estes se dispersaram da África. No entanto, simplesmente encontrar DNA em comum entre europeus modernos e Neandertais não é suficiente para demonstrar cruzamento. Também é consistente com estrutura antiga no continente africano. Em resumo, se antigos habitantes do nordeste da África tinham sequências de DNA únicas, então tanto Neandertais quanto europeus modernos poderiam possuir essas sequências de um ancestral comum, em vez de cruzamento direto. Portanto, mesmo no caso aparentemente simples de estimar se Neandertais e humanos modernos compartilham DNA único, há mais de uma explicação baseada em processos. A comparação de modelos é necessária.
1.3.3. Modelos multinível
Em uma narrativa apócrifa da cosmologia hindu, diz-se que a Terra repousa sobre as costas de um grande elefante, que por sua vez está de pé sobre as costas de uma enorme tartaruga. Quando perguntado sobre o que a tartaruga está, diz-se que um guru responde: “são tartarugas até o fim”.
Os modelos estatísticos não contêm tartarugas, mas contêm parâmetros. E os parâmetros apoiam a inferência. Sobre o que os próprios parâmetros se apoiam? Às vezes, em alguns dos modelos mais poderosos, são parâmetros até o fim. O que isso significa é que qualquer parâmetro particular pode ser utilmente considerado como um espaço reservado para um modelo ausente. Dado algum modelo de como o parâmetro obtém seu valor, é simples o suficiente inserir o novo modelo dentro do antigo. Isso resulta em um modelo com múltiplos níveis de incerteza, cada um alimentando o próximo — um modelo multinível.
Modelos multinível — também conhecidos como modelos hierárquicos, de efeitos aleatórios, de efeitos variáveis, ou de efeitos mistos — estão se tornando de rigueur nas ciências biológicas e sociais. Campos tão diversos quanto testagem educacional e filogenética bacteriana agora dependem de modelos multinível rotineiros para processar dados. Assim como a análise bayesiana de dados, a modelagem multinível não é particularmente nova, mas só está disponível em computadores de mesa há algumas décadas. E como tais modelos têm uma representação bayesiana natural, eles cresceram de mãos dadas com a análise bayesiana de dados.
Estaremos interessados em modelos multinível principalmente porque eles nos ajudam a lidar com o overfitting. A validação cruzada e os critérios de informação medem o risco de overfitting e nos ajudam a reconhecê-lo. Mas os modelos multinível realmente fazem algo a respeito. O que eles fazem é explorar um truque estatístico surpreendente conhecido como pooling parcial, que agrupa informações entre unidades nos dados para produzir estimativas melhores para todas as unidades. Os detalhes serão abordados ao longo do curso.
O pooling parcial é a tecnologia-chave, e os contextos em que ele é apropriado são diversos. Aqui estão quatro exemplos comuns.
- Para ajustar estimativas para amostragem repetida. Quando mais de uma observação surge do mesmo indivíduo, local ou tempo, então modelos tradicionais de nível único podem nos enganar.
- Para ajustar estimativas para desequilíbrio na amostragem. Quando alguns indivíduos, locais ou tempos são amostrados mais que outros, também podemos ser enganados por modelos de nível único.
- Para estudar variação. Se nossas perguntas de pesquisa incluem variação entre indivíduos ou outros grupos dentro dos dados, então modelos multinível são uma grande ajuda, porque modelam a variação explicitamente.
- Para evitar a média. Frequentemente, acadêmicos calculam a média de alguns dados para construir variáveis para uma análise de regressão. Isso pode ser perigoso, porque calcular a média remove variação. Portanto, fabrica falsa confiança. Modelos multinível nos permitem preservar a incerteza nos valores originais, antes da média, enquanto ainda usamos a média para fazer predições.
Todos os quatro se aplicam a contextos nos quais o pesquisador reconhece agrupamentos ou grupos de medições que podem diferir entre si. Esses agrupamentos ou grupos podem ser indivíduos como diferentes estudantes, locais como diferentes cidades, ou tempos como diferentes anos. Como cada agrupamento pode muito bem ter uma tendência média diferente ou responder de maneira diferente a qualquer tratamento, dados agrupados frequentemente se beneficiam de serem modelados por um golem que espera tal variação.
Mas o escopo da modelagem multinível é muito maior do que esses exemplos. Tipos diversos de modelos acabam sendo multinível: modelos para dados ausentes (imputação), erro de medição, análise fatorial, alguns modelos de séries temporais, tipos de regressão espacial e de redes, e regressões filogenéticas — todos são aplicações especiais da estratégia multinível. Captar o conceito de modelagem multinível pode levar a uma mudança de perspectiva. De repente, modelos de nível único acabam parecendo meros componentes de modelos multinível. A estratégia multinível fornece um princípio de engenharia para nos ajudar a introduzir esses componentes em uma análise particular, exatamente onde pensamos que precisamos deles.
Quero convencer o leitor de algo que parece irracional: a regressão multinível merece ser a forma padrão de regressão. Artigos que não usam modelos multinível deveriam justificar por que não usam uma abordagem multinível. Certamente alguns dados e contextos não precisam do tratamento multinível. Mas a maioria dos estudos contemporâneos nas ciências sociais e naturais, sejam experimentais ou não, se beneficiaria dele. Talvez a razão mais importante seja que mesmo tratamentos bem controlados interagem com aspectos não medidos dos indivíduos, grupos ou populações estudados. Isso leva à variação nos efeitos do tratamento, na qual indivíduos ou grupos variam em como respondem à mesma circunstância. Modelos multinível tentam quantificar a extensão dessa variação, bem como identificar quais unidades nos dados responderam de quais maneiras.
Esses benefícios não vêm de graça, no entanto. Ajustar e interpretar modelos multinível pode ser consideravelmente mais difícil do que ajustar e interpretar um modelo de regressão tradicional.
Na prática, muitos pesquisadores simplesmente confiam em seu software caixa-preta e interpretam a regressão multinível exatamente como a regressão de nível único. Com o tempo, isso mudará. Houve uma época na estatística aplicada em que até a regressão múltipla ordinária era considerada de ponta, algo para apenas especialistas mexerem. Em vez disso, cientistas usavam muitos procedimentos simples, como testes t. Agora, quase todos usam ferramentas multivariadas. O mesmo acontecerá eventualmente com os modelos multinível. A cultura acadêmica e o currículo ainda têm algum alcance a fazer.
Repensando: Previsão multinível de eleições. Uma das aplicações mais antigas da modelagem multinível é prever os resultados de eleições democráticas. No início da década de 1960, John Tukey (1915–2000) começou a trabalhar para a National Broadcasting Company (NBC) nos Estados Unidos, desenvolvendo modelos de previsão eleitoral em tempo real que podiam explorar tipos diversos de dados: pesquisas, eleições passadas, resultados parciais e resultados completos de distritos relacionados. Os modelos usavam um arcabouço multinível semelhante ao que será apresentado mais adiante no curso. Tukey desenvolveu e usou tais modelos para a NBC até 1978. A previsão eleitoral contemporânea e a agregação de pesquisas permanecem um tópico ativo para a modelagem multinível.
1.3.4. Modelos causais gráficos
Quando o vento sopra, os galhos balançam. Se você é humano, interpreta imediatamente essa declaração como causal: o vento faz os galhos se moverem. Mas tudo o que vemos é uma associação estatística. Apenas pelos dados, poderia ser também que os galhos balançando fazem o vento. Essa conclusão parece tola, porque você sabe que árvores não balançam seus próprios galhos. Um modelo estatístico é um incrível motor de associação. Ele torna possível detectar associações entre causas e seus efeitos. Mas um modelo estatístico nunca é suficiente para inferir causa, porque o modelo estatístico não faz distinção entre o vento causando os galhos a balançar e os galhos causando o vento a soprar. Fatos fora dos dados são necessários para decidir qual explicação é correta.
A validação cruzada e os critérios de informação tentam adivinhar a acurácia preditiva. Quando os introduzi acima, descrevi o overfitting como o paradoxo primário na predição. Agora nos voltamos para um paradoxo secundário na predição: Modelos que são causalmente incorretos podem fazer predições melhores do que aqueles que são causalmente corretos. Como resultado, focar na predição pode nos enganar sistematicamente. E embora você possa ter ouvido que experimentos controlados randomizados permitem inferência causal, esses riscos se aplicam a experimentos randomizados também. Ninguém está seguro.
Chamarei isso de problema de identificação e o distinguirei cuidadosamente do problema de predição bruta. Considere dois significados diferentes de “predição”. O mais simples se aplica quando somos observadores externos simplesmente tentando adivinhar o que acontecerá em seguida. Nesse caso, ferramentas como a validação cruzada são muito úteis. Mas essas ferramentas recomendarão alegremente modelos que contêm variáveis de confusão e sugerem relações causais incorretas. Por quê? Relações confundidas são associações reais, e elas podem melhorar a predição. Afinal, se você olhar para fora e vir galhos balançando, isso realmente prediz vento. A predição bem-sucedida não requer identificação causal correta. Na verdade, as predições podem na realidade melhorar quando usamos um modelo que é causalmente enganoso.
Mas o que acontece quando intervenimos no mundo? Agora tudo muda. Agora devemos considerar um segundo significado de “predição”: O que acontecerá quando intervirmos no mundo. Suponha que recrutemos muitas pessoas para subir nas árvores e balançar os galhos. Isso fará vento? Não muito. Frequentemente, o objetivo da modelagem estatística é produzir compreensão que leve a generalização e aplicação. Nesse caso, precisamos de mais do que apenas boas predições, na ausência de intervenção. Também precisamos de uma compreensão causal precisa. Mas comparar modelos com base na acurácia preditiva — ou valores-p ou qualquer outra coisa — não necessariamente a produzirá.
Então, o que pode ser feito? O que é necessário é um modelo causal que possa ser usado para projetar um ou mais modelos estatísticos com o propósito de identificação causal. Como mencionei no exemplo da evolução molecular neutra anteriormente neste capítulo, um modelo científico completo contém mais informação do que um modelo estatístico derivado dele. E essa informação adicional contém implicações causais. A maioria dos cientistas faz uso informal dessas implicações. Mas também é possível fazer uso formal delas, demonstrando logicamente quando uma estimativa identifica uma relação causal. Esses métodos formais datam da primeira metade do século XX, mas foram mais recentemente estendidos ao estudo da medição, do design experimental e da capacidade de generalizar (ou transportar) resultados entre amostras.
E a boa notícia é que mesmo quando você não tem um modelo causal completo, mas apenas um modelo heurístico indicando quais variáveis influenciam causalmente outras, você ainda pode fazer uso dessas ferramentas lógicas. Essa é a estratégia que usaremos neste material. Usaremos um modelo causal gráfico para representar uma hipótese causal. O modelo causal gráfico mais simples é um grafo acíclico direcionado, geralmente chamado de DAG (Directed Acyclic Graph). DAGs são heurísticos — eles não são modelos estatísticos detalhados. Mas eles nos permitem deduzir quais modelos estatísticos podem fornecer inferências causais válidas, assumindo que o DAG é verdadeiro.
Mas de onde vem o próprio DAG? A terrível verdade sobre a inferência estatística é que sua validade depende de informação fora dos dados. Precisamos de um modelo causal com o qual projetar tanto a coleta de dados quanto a estrutura de nossos modelos estatísticos. Mas a construção de modelos causais não é uma empreitada puramente estatística, e a análise estatística nunca pode verificar todas as nossas suposições. Nunca haverá um golem que aceite dados puros e retorne um modelo confiável das relações causais entre as variáveis. Vamos simplesmente ter que continuar fazendo ciência.
Repensando: Salada causal. A inferência causal requer um modelo causal que é separado do modelo estatístico. Os dados não são suficientes. Toda filosofia concorda pelo menos nesse ponto. As respostas, no entanto, são diversas. A resposta mais conservadora é declarar “causalidade” como sendo um doce mental impossível de provar, como debater a natureza da vida após a morte. Um pouco menos conservador é insistir que a causa só pode ser inferida sob condições estritas de randomização e controle experimental. Isso seria muito limitante. Muitas perguntas científicas nunca podem ser estudadas experimentalmente — a evolução humana, por exemplo. Muitas outras poderiam, em princípio, ser estudadas experimentalmente, mas seria antiético fazê-lo. E muitos experimentos são na verdade apenas tentativas de controle — os pacientes nem sempre tomam sua medicação.
Mas a abordagem que domina em muitas partes da biologia e das ciências sociais é, em vez disso, a salada causal. A salada causal significa atirar várias variáveis de “controle” dentro de um modelo estatístico, observar mudanças nas estimativas e então contar uma história sobre causalidade. A salada causal parece fundada na noção de que apenas variáveis omitidas podem nos enganar sobre causalidade. Mas variáveis incluídas podem nos confundir com igual facilidade. Ao fazer uma salada causal, um modelo que faz boas predições pode ainda enganar sobre causalidade. Se usarmos o modelo para planejar uma intervenção, ele errará tudo.
1.4. Resumo
Este primeiro capítulo argumentou por um repensar da filosofia estatística e científica popular. Em vez de escolher entre várias ferramentas caixa-preta para testar hipóteses nulas, devemos aprender a construir e analisar múltiplos modelos não-nulos de fenômenos naturais. Para apoiar esse objetivo, o capítulo introduziu a inferência bayesiana, a comparação de modelos, os modelos multinível e os modelos causais gráficos.